Most computational models of dependency syntax consist of distributions over spanning trees. However, the majority of dependency treebanks require that every valid dependency tree has a single edge coming out of the ROOT node, a constraint that is not part of the definition of spanning trees. For this reason all standard inference algorithms for spanning trees are suboptimal for inference over dependency trees. Zmigrod et al. (2021b) proposed algorithms for sampling with and without replacement from the dependency tree distribution that incorporate the single-root constraint. In this paper we show that their fastest algorithm for sampling with replacement, Wilson-RC, is in fact producing biased samples and we provide two alternatives that are unbiased. Additionally, we propose two algorithms (one incremental, one parallel) that reduce the asymptotic runtime of algorithm for sampling k trees without replacement to O(kn3). These algorithms are both asymptotically and practically more efficient.
translated by 谷歌翻译
We introduce Transformer Grammars (TGs), a novel class of Transformer language models that combine (i) the expressive power, scalability, and strong performance of Transformers and (ii) recursive syntactic compositions, which here are implemented through a special attention mask and deterministic transformation of the linearized tree. We find that TGs outperform various strong baselines on sentence-level language modeling perplexity, as well as on multiple syntax-sensitive language modeling evaluation metrics. Additionally, we find that the recursive syntactic composition bottleneck which represents each sentence as a single vector harms perplexity on document-level language modeling, providing evidence that a different kind of memory mechanism -- one that is independent of composed syntactic representations -- plays an important role in current successful models of long text.
translated by 谷歌翻译
Industrial Internet of Things (IoT) systems increasingly rely on wireless communication standards. In a common industrial scenario, indoor wireless IoT devices communicate with access points to deliver data collected from industrial sensors, robots and factory machines. Due to static or quasi-static locations of IoT devices and access points, historical observations of IoT device channel conditions provide a possibility to precisely identify the device without observing its traditional identifiers (e.g., MAC or IP address). Such device identification methods based on wireless fingerprinting gained increased attention lately as an additional cyber-security mechanism for critical IoT infrastructures. In this paper, we perform a systematic study of a large class of machine learning algorithms for device identification using wireless fingerprints for the most popular cellular and Wi-Fi IoT technologies. We design, implement, deploy, collect relevant data sets, train and test a multitude of machine learning algorithms, as a part of the complete end-to-end solution design for device identification via wireless fingerprinting. The proposed solution is currently being deployed in a real-world industrial IoT environment as part of H2020 project COLLABS.
translated by 谷歌翻译
在许多数据挖掘和机器学习任务(包括降低维度降低,离群检测,相似性搜索和子空间群集)中,对内在维度(ID)的准确估计至关重要。但是,由于它们的收敛性通常需要数百个点的样本量(即邻域尺寸),因此现有的ID估计方法可能仅对数据组成的应用程序组成的应用程序有限。在本文中,我们提出了一个局部ID估计策略,即使对于“紧密”的地方,稳定的策略也只有20个样本。估计器基于最新的固有维度(局部固有维度(LID))的极端价值理论模型,在样品成员之间的所有可用成对距离上应用MLE技术。我们的实验结果表明,我们提出的估计技术可以实现明显更小的方差,同时保持可比的偏见水平,而样本量比最先进的估计器小得多。
translated by 谷歌翻译
在过去的二十年中,我们目睹了以图形或网络形式构建的有价值的大数据的大幅增长。为了将传统的机器学习和数据分析技术应用于此类数据,有必要将图形转换为基于矢量的表示,以保留图形最重要的结构属性。为此,文献中已经提出了大量的图形嵌入方法。它们中的大多数产生了适用于各种应用的通用嵌入,例如节点聚类,节点分类,图形可视化和链接预测。在本文中,我们提出了两个新的图形嵌入算法,这些算法是基于专门为节点分类问题设计的随机步道。已设计算法的随机步行采样策略旨在特别注意集线器 - 高度节点,这些节点在大规模图中具有最关键的作用。通过分析对现实世界网络嵌入的三种分类算法的分类性能,对所提出的方法进行实验评估。获得的结果表明,与当前最流行的随机步行方法相比,我们的方法可大大提高所检查分类器的预测能力(NODE2VEC)。
translated by 谷歌翻译
局部内在维度(LID)的概念是数据维度分析的重要进步,并在数据挖掘,机器学习和相似性搜索问题中应用了。现有的基于距离的盖估计器设计用于包含欧几里得空间中向量的数据点的表格数据集。在讨论了考虑图嵌入和图形距离的图形结构数据的局限性之后,我们提出了NC-lid,这是一种与盖子相关的新型措施,用于量化最短路径距离相对于自然群落的固有区域的歧视能力。它显示了如何使用该度量来设计嵌入算法的图形图,并通过根据NC-LID值调整了Node2VEC的两个LID弹性变体。我们对NC-LID对大量实际图表的经验分析表明,该措施能够指向Node2VEC嵌入中具有高链路重建错误的节点,而不是节点中心度指标。实验评估还表明,通过在生成的嵌入中更好地保​​留图形结构,提出的盖 - 弹性节点2VEC扩展可以改善节点2VEC。
translated by 谷歌翻译
大多数室内3D场景重建方法都致力于恢复3D几何和场景布局。在这项工作中,我们超越了这一点提出Photoscene,该框架是一个场景的输入图像以及大约对齐的CAD几何(自动或手动指定的重建),并构建具有高质量材料和高质量材料和高质量的材料的photorealistic Digital Twin类似的照明。我们使用程序材料图对场景材料进行建模;这样的图代表了逼真的和分辨率无关的材料。我们优化了这些图的参数及其纹理量表和旋转,以及场景照明,以通过可区分的渲染层最好地匹配输入图像。我们评估了从扫描仪,Sun RGB-D和库存照片的对象和布局重建的技术,并证明我们的方法重建高质量的,完全可重新可重新可重新的3D场景,这些场景可以在任意观点,Zooms和Lighting下重新渲染。
translated by 谷歌翻译
最近的方法(例如材料gan)已使用无条件的gan来生成每像素材料图,或作为从输入照片重建材料之前的材料。这些模型可以生成各种随机材料外观,但没有任何将生成材料限制为特定类别或控制生成材料的粗体结构的机制,例如砖墙上的精确砖布局。此外,从单个输入照片中重建的材料通常具有伪像,并且通常不可易换,这限制了它们在实际内容创建管道中的使用。我们提出了Tilegen,这是一种针对SVBRDFS的生成模型,该模型特定于材料类别,始终可易换,并且在提供的输入结构模式上有条件。 Tilegen是Stylegan的变体,其架构经过修改以始终生成可易于的(周期性)材料图。除了标准的“样式”潜在代码外,Tilegen还可以选择拍摄条件图像,从而使用户直接控制材料的主要空间(和可选的颜色)功能。例如,在砖块中,用户可以指定砖布局和砖块,或者在皮革材料中,皱纹和褶皱的位置。我们的反渲染方法可以通过优化找到一种材料,从而感知到单个目标照片。这种重建也可以以用户提供的模式为条件。所得的材料是可拆卸的,可以大于目标图像,并且可以通过改变条件来编辑。
translated by 谷歌翻译
我们提出了一种方法,可以在神经SDF渲染器中相对于几何场景参数自动计算正确的梯度。最近基于物理的可区分渲染技术用于网格采样来处理不连续性,尤其是在对象轮廓上,但是SDF没有简单的参数形式,可用于采样。取而代之的是,我们的方法建立在区域采样技术的基础上,并为SDFS开发了连续的翘曲功能,以解决这些不连续性。我们的方法利用了在SDF中编码的表面的距离,并在球形示踪剂点上使用正交来计算此翘曲功能。我们进一步表明,这可以通过对要点进行次采样来使神经SDF的方法进行。我们可区分的渲染器可用于优化从多视图图像中的神经形状,并对最近基于SDF的反向渲染方法产生可比较的3D重建,而无需2D分割掩码来指导几何形状优化,而无需对几何形状进行体积近似。
translated by 谷歌翻译
我们提出了一种从单个图像中编辑复杂室内照明的方法,其深度和光源分割掩码。这是一个极具挑战性的问题,需要对复杂的光传输进行建模,并仅通过对场景的部分LDR观察,将HDR照明从材料和几何形状中解散。我们使用两个新颖的组件解决了这个问题:1)一种整体场景重建方法,该方法估计场景反射率和参数3D照明,以及2)一个神经渲染框架,从我们的预测中重新呈现场景。我们使用基于物理的室内光表示,可以进行直观的编辑,并推断可见和看不见的光源。我们的神经渲染框架结合了基于物理的直接照明和阴影渲染,深层网络近似于全球照明。它可以捕获具有挑战性的照明效果,例如柔软的阴影,定向照明,镜面材料和反射。以前的单个图像逆渲染方法通常纠缠场景照明和几何形状,仅支持对象插入等应用程序。取而代之的是,通过将参数3D照明估计与神经场景渲染相结合,我们演示了从单个图像中实现完整场景重新确定(包括光源插入,删除和替换)的第一种自动方法。所有源代码和数据将公开发布。
translated by 谷歌翻译